手语是一种视觉化语言,通过手势、面部表情、身体运动等传达信息。由于这些视觉元素的组合有固有的限制,手语中存在大量视觉上难以区分的符号(VISigns),这限制了视觉神经网络的识别能力。为了缓解这个问题,我们提出了自然语言辅助手语识别(NLA-SLR)框架,利用语义信息包含在注释中(符号标签)。首先,对于具有相似语义意义的VISigns,我们提出使用语言感知标签平滑方法,通过为每个训练符号生成软标签,并计算标签平滑权重,以减轻训练的难度。其次,对于具有不同语义意义的VISigns,我们提出一种跨模态混合技术,将视觉和注释特征混合,以进一步增加根据融合标签监督下的不同符号的可分性。此外,我们还引入了一种新的主干网络,视频关键点网络,它不仅可以建模RGB视频和人体关键点,而且还可以从具有不同时间感受野的手语视频中获取知识。实验结果表明,我们的方法在三个广泛使用的基准测试中实现了最先进的性能:MSASL,WLASL和NMFs-CSL。代码可以在https://github.com/FangyunWei/SLRT上找到。
论文链接:http://arxiv.org/pdf/2303.12080v1
更多计算机论文:http://cspaper.cn/